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摘要 “由 于 现代 科学 发 现 越 来 越 依赖 于 大 规模 科学 数据 的 分 析 处 理 ， 如 何 高 效 管理 科学 大 数据 业已 成 为 当下 吾 待 
解决 的 问题 。 文 章 分 析 了 科学 大 数据 的 应 用 场景 和 需求 ， 阅 述 了 科学 大 数据 在 规模 动态 化 、 流 水 线 管理 、 统 一 
访问 、 数 据 共享 (SPUS) 4 个 方面 面临 的 挑战 。 提 出 了 包括 计算 和 存储 管理 、 数 据 流 水 线 管理 、 数 据 融 合 查询 管 
理 、 数 据 共享 管理 4 个 模块 的 科学 大 数据 管理 系统 体系 结构 ， 并 分 析 了 系统 中 存在 的 关键 技术 问题 。 最 后 ， 介 绍 了 
国家 重点 研发 计划 项 目 “科学 大 数据 管理 系统 ”的 研发 进展 及 其 未 来 的 研究 方向 。 
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Jim Gray 提出 了 科学 研究 的 第 四 范式 一 一 数据 密 
集 型 科学 发 现 的 观点 ， 他 认为 海量 数据 是 未 来 驱动 科 
学 发 现 的 主要 动力 之 一 。2012 年 7 月 4 日 ， 欧 洲 粒 子 
物理 中 心 ( CERN ) 通过 分 析 过 去 两 年 大 型 强 子 对 撞 机 
(LHC ) 的 实验 数据 ， 宣 布 发 现 “上 帝 粒 子 ”; 次 年 ， 
“上 帝 粒 子 ” 预 言 者 获得 了 诺 贝 尔 物理 学 奖 。 激 光 干 涉 
仪 引力 波 天 文 台 (LIGO ) 科学 合作 组 织 在 积累 300PB 数 
据 、 历 时 14 年 模型 和 系统 改进 以 后 ，2016 年 2 月 11 日 
宣布 第 一 次 探测 到 了 引力 波 的 存在 ， 证 实 了 相对 论 的 最 
后 预言 ; 2017 年 LIGO 的 3 位 重要 贡献 者 获得 了 诺 贝 尔 
物理 学 奖 。 环 顾 当今 的 重大 科学 研究 装置 和 项 目 ， 如 天 
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文 领域 的 大 型 巡天 望远镜 (LSST ) 、 高 能 物理 领域 的 
大 型 强 子 对 撞 机 (LHC ) 、 生 命 科学 领域 的 人 类 基因 组 
计划 (HGP ) 、 地 球 科学 领域 的 灾害 风险 综合 研究 计划 
(IRDR ) 等 ， 无 一 不 是 从 大 科学 装置 或 观测 设备 中 持 
续 不 断 采集 数据 ， 然 后 通过 数据 分 析 进 行 科 学 发 现 。 毫 
无 疑问 ， 如 今 的 科学 发 现 模式 已 经 进入 科学 大 数据 驱 
动 的 时 代 。 到 2020 年 左右 ，LSST 将 全 面 完 工 运行 ， 届 
时 LSST 每 3 天 完成 1 次 巡天 ， 每 天 产生 15TB 数据 以 用 
于 新 星 发 现 、 暗 物质 探测 等 科研 目标 ; 阵列 射电 望远镜 
( SKA ) 每 秒 将 产生 200 GB 原始 数据 、 每 秒 千 万 亿 次 
计算 、10 倍 于 现 有 因特网 传输 速度 ， 正 等 待 科 研 人 员 去 
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突破 和 挑战 。 这 些 大 科学 项 目 对 于 宇宙 起 源 认识 、 自 然 
规律 发 现 、 科 技 创新 具有 重大 意义 ， 能 否 有 效 管理 、 处 
理 、 利 用 这 些 数据 ， 将 成 为 我 国 在 新 时 代 下 能 否 取 得 国 
际 科 技 领先 地 位 的 关键 因素 之 一 。 


1 科学 大 数据 应 用 场景 及 管理 需求 


1.1 科学 大 数据 的 应 用 场景 及 典型 特征 

科学 数据 是 科研 活动 的 输入 、 输 出 和 资产 ， 是 证 实 
或 者 证 伪 科 学 发 现 或 科学 观点 事实 、 证 据 或 者 论证 推理 
的 基础 。 它 包括 数字 化 观测 、 科 学 监测 等 来 自 仪 器 设备 
或 传感器 的 数据 ， 计 算 模拟 与 模型 输出 的 数据 ， 对 情景 
或 现象 的 描述 ， 对 行为 的 观测 或 定性 描述 ， 以 及 用 于 管 
理 或 者 商业 目的 的 统计 数据 等 ~"。 目 前 科学 大 数据 普遍 存 
在 于 各 个 领域 的 科学 研究 ， 尤 其 在 天 文学 、 高 能 物理 、 
微生物 学 等 大 科学 领域 ,科学 大 数据 的 应 用 场景 尤为 明 
显 口 。 

在 天 文学 领域 ， 中 法 合作 伽 马 暴 探测 天 文 卫星 
SVOM 的 关键 地 面 设 备 GWAC 的 每 个 相机 15 s 内 会 产 
生 32 MB 的 天 区 图 ， 并 于 下 一 个 天 区 图 产生 之 前 完成 点 
源 提取 、 交 叉 认证 等 操作 ， 最 终 在 3 一 5s 内 完成 100 万 一 
10 000 万 行星 表 数 据 的 插入 ，10 亿 一 100 亿 行 星 表 数据 
的 JOIN 运算 口 。 

在 高 能 物理 领域 ， 欧 洲 核 子 物 理 研 究 组 织 构 建 的 
大 型 强 子 对 撞 机 (LHC ) 每 秒 进 行 6 亿 次 碰撞 实验 ， 
产生 6PB 事例 数据 ， 经 事例 筛选 后 存储 大 约 1 GB 实 
验 数据 。 目 前 LHC 产生 的 实验 数据 已 超过 200 PB ， 未 
来 5 年 LHC 产生 的 数据 将 会 超过 1 EB ， 事 例 数 将 达到 
千 万 亿 级 别 ， 需 在 10 s 内 完成 百 万 分 之 一 的 事例 筛选 操 
作 ”s 

在 微生物 学 领域 ， 中 国 科 学 院 微生物 研究 所 世界 数 
据 中 心 (WDCM ) 对 Taxonomy 、GenBank、Gene 等 36 个 
数据 源 进 行 实体 识别 、 歧 义 消 除 、 本 体 构 建 等 数据 处 理 
操作 ， 构 建 了 包含 830 万 个 节点 、1.3 亿 条 边 的 知识 图 
谱 结 构 。 预 计 未 来 5 年 内 ，WDCM 还 将 汇聚 开放 生物 
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资源 、 文 献 、 序 列 和 疾病 等 数据 ， 在 10 000 多 个 数据 源 
中 构建 100 亿 条 关联 的 知识 图 谱 数 据 ， 并 要 求 1 s 内 完 
成 100 亿 条 关联 数据 的 6 步 关 联 查 询 。 

自 2011 年 麦肯锡 年 度 总 结 报告 中 提出 “大 数据 ”概念 
以 来 ， 学 术 界 和 工业 界 对 大 数据 定义 一 直 存在 争议 ， 这 些 
争议 主要 来 自 不 同 领域 中 大 数据 的 特征 体现 "。 目 前 学 术 
界 公 认 大 数据 具有 “4V” 特 征 一 一 体 量 大 (volume ) 、 
生成 快 (velocity ) 、 多 样 性 ( variety ) 和 密度 低 
(value ) ， 科 学 大 数据 应 用 场景 充分 体现 了 这 “4V” 特 
征 ， 并 具有 以 下 独特 的 性 质 。 

(1) 科学 发 现 的 准确 性 建立 在 海量 实验 数据 的 重复 
计算 验证 之 上 。 例 如 ，“ 上 帝 粒 子 ” 和 暗物质 发 现 的 正 
确 性 经 过 了 对 数 百 PB 量 级 数据 的 多 次 重复 计算 ， 多 次 验 
证 重复 出 现 同一 结论 时 才能 发 布 结论 。 

(2) 短 时 间 内 科学 实验 会 产生 大 量 观测 数据 并 进行 
流程 化 处 理 ， 实 验 数 据 会 持续 进入 持久 化 存储 设备 进行 
长 周期 存储 。 例 如 ，GWAC 在 15s 内 完成 40x32 MB 天 区 
图 的 点 源 检测 、 入 库 等 操作 ,产生 的 所 有 数据 将 永久 存 
储 。 

(3) 科学 现象 观测 的 量化 指标 存在 图 像 、 语 音 、 时 
间 序 列 等 形式 ， 数 据 分 布 在 不 同 国家 和 机 构 中 ， 科 学 研 
究 需 要 整合 这 些 多 源 异 构 数据 。 例 如 ，WDCM 整 合 36 个 
包括 文本 、 网 页 、 医 疗 记录 在 内 的 数据 源 完 成 知识 图 谱 
构建 。 

(4) 科学 数据 来 自 大 科学 装置 、 互 联网 、 国 家 机 构 
等 ， 数 据 与 国家 利益 和 个 人 隐私 相关 ， 数 据 共享 和 挖掘 
分 析 会 产生 更 大 的 社会 推进 作用 。 例 如 ，“ 数 字 丝 路 ” 
( DBAR ) 国际 科学 计划 涉及 “一 带 一 路 ”沿线 65 个 国 
家 共享 的 地 理 、 农 业 、 社 会 舆论 等 数据 ， 控 掘 分 析 这 些 
数据 可 为 地 区 、 国 家 的 决策 提供 重要 参考 ， 然 而 如 何 分 
享 成 果 收益 、 保 护 数据 隐私 是 该 计划 面临 的 一 个 重要 问 
题 。 

科学 大 数据 的 这 些 性 质 对 数据 管理 系统 提出 了 巨大 
挑战 。 
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1.2 科学 大 数据 管理 的 挑战 

科学 大 数据 管理 涉及 数据 的 收集 、 存 储 、 处 理 、 
分 析 、 可 视 化 和 共享 等 全 生命 周期 管理 。 如 图 1 所 示 ， 
科学 应 用 首先 从 科学 装置 接 入 或 从 互联 网 采集 大 量 异 构 
实验 或 观测 数据 ， 然 后 经 过 初步 过 滤 、 转 换 等 数据 预 处 
理 操作 存 入 持久 化 设备 形成 原始 科学 数据 。 针 对 具体 科 
研 目 标 ， 应 用 对 原始 数据 进一步 运算 抽取 实验 特征 形成 
特征 数据 。 科 学 应 用 对 特征 数据 整合 挖掘 分 析 形 成 科学 
发 现 量化 指标 ， 并 通过 可 视 化 的 方法 将 科学 发 现 展现 出 
来 。 最 后 整个 流程 中 产生 的 所 有 数据 都 将 存档 、 发 布 以 
备 将 来 查询 、 验 证 等 科研 目标 使 用 。 
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数据 分 析 


原始 库 日 Ws 数据 融合 查询 


图 1 科学 大 数据 生命 周期 


科学 大 数据 管理 存在 常见 的 “4V” 问 题 ， 同 时 也 具 
有 独特 的 性 质 ， 这 些 性 质 决定 了 科学 大 数据 管理 系统 生 
命 周 期 中 面临 4 个 方面 的 挑战 (SPUS ) 。 

(1) 规模 动态 化 (Scale Dynamic) 。 科 学 实验 持 
续 产生 海量 科学 数据 ， 并 需 进 行 长 周期 持久 化 存储 。 比 
如 上 文中 提 到 的 大 部 分 科学 研究 项 目 (如 GWAC、LHC 
等 ) 每 秒 产 生 GB 量 级 的 观测 数据 ， 并 且 数 据 无 失效 期 ， 
然而 科研 机 构 却 无 法 事先 确定 存储 和 计算 资源 的 配置 以 
最 优 地 满足 科学 应 用 需求 。 因 此 ， 如 何 弹性 动态 地 为 这 
些 数据 分 配 存储 空间 和 数据 处 理 资源 是 科学 大 数据 管理 
需要 面 对 的 一 个 重大 挑战 。 

(2) 流水 线 管 理 (Pipeline Management) 。 科 学 实 
验 有 严密 的 实验 步骤 ， 科 学 装置 产生 的 海量 原始 科学 数 
据 会 经 过 大 量 的 特征 提取 、 转 换 、 分 析 等 数据 加 工 操作 
最 终 产 出 科研 成 果 。 以 GWAC 新 星 发 现 应 用 为 例 ， 原 始 
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数据 进入 系统 以 后 ， 系 统 需要 完成 特征 提取 、 交 叉 认 证 
等 严密 的 数据 处 理 操作 ; 新 星 预警 发 生 后 ， 系 统 需要 漳 
源 到 预警 产生 的 特征 记录 、 天 区 图 、 镜 头等 并 对 它们 进 
行 反复 确认 。 此 外 ， 同 一 个 科学 装置 下 也 会 出 现 大 量 > 
似 的 实验 流程 ， 因 此 有 效 地 人 创建、 执行、 管理 这 些 实验 
步骤 和 数据 将 极 大 提高 科学 实验 的 效率 。 

(3) 统一 访问 (Unified Access)。 大 科学 应 用 经 常会 
对 不 同 领域 、 不 同 机 构 的 异 构 数据 进行 融合 挖掘 分 析 。 
以 中 国 科 学 家 发 起 的 DBAR 国际 科学 计划 为 例 ， 为 了 
给 地 区 决策 提供 参考 ， 需 要 获取 天 、 空 、 地 综合 数据 资 
源 构建 共享 的 地 球 大 数据 平台 。 这 其 中 涉及 卫星 遥感 数 
据 、 气 候 观 测 站 数据 、 生 物 观 测 站 数据 以 及 社交 网 络 中 
的 与 论 热点 数据 等 异 构 数 据 的 融合 管理 。 因 此 ， 如 何 用 
统一 的 方式 访问 多 源 异 构 数据 将 极 大 地 提升 科学 发 现 的 
价值 和 规模 。 

(4) 共享 管理 (Sharing Management) 。 科 学 实验 
产生 的 成 果 数据 以 及 中 间 数 据 通过 互联 开放 共享 以 便 集 
全 世界 科学 家 的 力量 进行 实验 验证 、 模 型 改进 等 后 续 科 
学 研究 ， 比 如 全 世界 物理 学 家 通过 互联 网 从 LHC 中 获取 
数据 进行 粒子 发 现实 验 ， 并 通过 互联 网 共享 科研 成 果 。 
科学 数据 开放 性 带 来 的 重大 问题 有 : 数据 提供 者 与 科研 
人 员 如 何 合 理 划分 科研 成 果 、 数 据 提供 者 著作 权 认 证 和 
激励 机 制 、 共 享 数 据 的 隐私 保护 等 。 如 果 不 能 妥善 解决 
这 些 问题 ， 将 影响 科研 人 员 的 积极 性 和 科研 生态 圈 的 健 
康 发 展 。 


2 科学 大 数据 管理 系统 体系 架构 


科学 大 数据 管理 系统 主要 由 4 个 核心 部 分 构成 : 计 
算 和 存储 管理 、 数 据 流水 线 管 理 、 数 据 融 合 查 询 管 理 和 
数据 共享 管理 ， 系 统 体系 架构 如 图 2 所 示 。 计 算 和 存储 
管理 组 件 需要 支持 海量 数据 的 存储 和 人 处理 ， 并 随 着 数据 
量 增长 动态 地 扩展 其 存储 和 处 理 能 力 ; 数据 处 理 流程 统 
一 管理 组 件 需 要 支持 数据 流水 线 的 数据 接 入 、 执 行 、 济 
源 和 分 享 等 一 站 式 统 一 管理 ;数据 融合 管理 组 件 需要 提 
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供 对 多 源 异 构 数 据 的 统一 查询 分 析 接 口 ; 数据 共享 管理 
组 件 需要 规范 科学 发 现 的 权益 划分 、 数 据 共享 的 隐私 保 
护 与 激励 机 制 。 


Apache Nifi Stream Set 
Rapid Minder || IBM Inforspher 


鲸 癌 名 漆 风 


Mysql Sql Server || Kylin Sparksql Orientdb Arraydb || BigDAWG Myria 


图 2 科学 大 数据 管理 系统 架构 


(1) 计算 和 存储 管理 组 件 。 即 计算 和 存储 资源 随 
上 层 应 用 负载 规模 的 变化 而 弹性 伸缩 ， 从 而 达到 处 理 时 
间 与 资源 投入 的 比例 最 优化 。 目 前 ， 弹 性 伸缩 分 为 渐进 
式 和 定量 式 两 种 方案 。 渐 进 式 伸缩 方法 监控 上 层 应 用 对 
底层 计算 和 存储 资源 的 竞争 度 ， 动 态 地 增加 或 缩减 底层 
资源 。 例 如 ， 在 AWS 云 平台 的 E-MapReduce 集群 上 运 
行 的 MapReduce 作业 对 资源 的 竞争 度 是 集群 剩余 可 用 
内 存 的 数量 ， 竞 争 度 超过 阔 值 会 将 新 计算 或 存储 节点 纳 
入 集群 从 而 完成 集群 的 自动 扩容 。 定 量 式 伸缩 方法 是 通 
过 预 估 目 标 应 用 的 计算 和 存储 资源 需求 ， 提 前 确定 应 
的 计算 和 存储 资源 规模 。 与 渐进 式 伸缩 相 比 ， 定 量 式 伸 
缩 的 反应 时 间 较 短 ， 然 而 定量 式 伸缩 方法 高 度 依赖 对 目 
标 应 用 的 计算 和 对 存储 资源 需求 的 准确 预 估 趾 ， 如 通过 
建立 目标 应 用 的 负载 模型 预 佑 系统 的 计算 和 存储 资源 。 

(2) 数据 流水 线 管理 组 件 。 通 过 对 数据 处 理 流 程 
的 抽象 ， 将 数据 处 理 过 程 映射 为 流水 线 中 的 若干 逻辑 
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处 理 单 元 ， 从 而 对 数据 处 理 过 程 进行 规范 和 统一 管理 。 
通常 情况 下 ， 流 水 线 中 1 个 处 理 单元 代表 1 个 函数 、 
WebService 或 SQL 语句 等 ， 处 理 单元 的 输出 可 以 作为 
其 他 1 个 或 多 个 处 理 单元 的 输入 ; 通过 分 支 、 循 环 等 方 
式 ， 这 些 处 理 单元 组 装 在 一 起 统一 管理 完成 科学 发 现 的 
流程 。 流 水 线 管理 与 工作 流 、 指 令 流 等 有 相似 的 形式 化 
表示 ， 如 Pi 代数、Petri 网 等 站， 通过 这 些 流 水 线形 式 化 
表示 ， 系 统 可 在 理论 上 保证 执行 过 程 的 准确 性 并 对 有 蜡 
进行 捕获 处 理 。 在 实际 应 用 中 ， 除 了 保证 流水 线 的 正确 
运行 之 外 ， 流水线 管理 还 需要 解决 数据 接 人 、 数 据 淹 
源 、 中 间 数 据 转换 等 核心 问题 ， 常 见 的 流水 线 管理 工具 
有 Apache Nifi、Stream Set 等 。 

(3) 数据 融合 查询 管理 组 件 。 即 用 统一 的 方式 访 
问 分 析 多 源 异 构 数 据 。 目 前 数据 融合 主要 有 联邦 数据 
多 模型 数据 库 ( Multi-model 
、 多 存储 数据 库 ( Polystore Database ) 、 数 
据 集成 ( Data Integration ) 4 种 方式 四 。 联 邦 数据 库 将 多 
个 自治 的 异 构 或 同 构 数据 库 中 的 数据 透明 地 映射 到 一 个 
全 局 视图 中 ， 具 有 自治 、 蜡 源 或 异 构 、 分 布 式 的 明显 特 
征 ， 比 如 在 SQL Server 2000 和 Mysql 5.0 中 的 Federate 功 
能 。 多 模型 数据 库 是 指 一 个 数据 库 后 端 存储 多 种 类 型 的 
数据 ， 如 OrientDB 、ArangoDB 等 。 多 存储 数据 库 架 构 
没有 统一 全 局 视图 ， 而 是 由 局 部 视图 和 中 间 视 图 构成 ， 
通过 统一 的 查询 语言 进行 查询 ， 典 型 的 Polystore 架构 
有 BigDAWG 、Myria 等 。 根 据 数 据 转 换 的 方式 ， 数 据 
集成 可 以 分 为 在 线 集成 和 离线 集成 两 种 方式 。 离 线 集成 
将 不 同 数据 源 中 数据 通过 ETL 转换 ， 存 储 在 全 局 视图 
数据 源 中 进行 统一 管理 分 析 ， 如 数据 仓库 、 数 据 湖泊 、 
DataHub 等 方式 。 在 线 集成 通过 解析 查询 语句 将 局 部 视 
图 中 的 数据 在 线 转换 为 全 局 视图 ， 如 Sparksql 、Impala、 
Presto 等 中。 

(4) 数据 共享 管理 组 件 。 该 组 件 的 根本 任务 是 
足 通 数 据 拥有 者 到 用 户 之 间 的 链 路 ， 促 进 数 据 资 源 在 
拥有 者 和 用 户 之 间 的 流通 、 传 播 与 重用 。 目 前 科学 数 
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据 共 享 机 制 模 式 的 研究 主要 集中 在 数据 汇 交 机 制 、 数 
据 出 版 机 制 、 数 据 联盟 机 制 和 服务 激励 机 制 ( 积分 机 
制 、 在 线 计算 服务 模式 ) 4 个 方面 ， 如 王 晴 "'“"、 李 成 
赞 等 (从 政策 法 规 、 技 术 保 障 、 评 价 激励 等 方面 对 数 
据 共享 机 制 进行 了 深入 分 析 和 论证 。 数 据 共享 的 隐私 保 
护 技术 中 最 具 代 表 性 的 是 区 块 链 技术 ， 如 丁 伟 等 '"、 合 
健 等 "提出 了 基于 区 块 链 的 数据 共享 方法 ,通过 公私 
钥 等 非 对 称 加 密 算法 将 数据 存储 在 区 块 链 上 ， 从 而 更 
大 程度 上 保护 了 用 户 数据 的 隐私 ， 并 在 医疗 、 基 因 等 
领域 进行 了 验证 。 


3 科学 大 数据 管理 系统 项 目 进 展 


依托 国家 重点 研发 计划 项 目 “科学 大 数据 管理 系 
统 ” 和 中 国 科 学 院 “ 十 三 五 ”信息 化 建设 “科学 大 数 
据 工 程 ”项 目 ， 我 们 与 计算 机 领域 及 天 文学 、 高 能 
理 、 微 生物 学 等 学 科 领 域 的 20 多 家 科研 单位 进行 合作 ， 
对 科学 大 数据 管理 进行 了 探索 ， 研 发 了 一 套 科 学 大 数 
据 管理 系统 BigSDMS ( Big Scientific Data Management 
System ) 。 该 项 目的 核心 内 容 主要 包括 3 个 部 分 : 科学 大 
数据 管理 引擎 、 科 学 大 数据 系统 集成 和 科学 大 数据 应 用 
示范 。 项 目 研 发 的 系统 总 体 架 构 如 图 3 所 示 。 

3.1 科学 大 数据 管理 引擎 

BigSDMS 包括 3 类 科学 大 数据 管理 引擎 : 大 规模 图 
数据 管理 、 大 规模 半 结 构 数 据 管理 和 大 规模 关系 型 数据 
管理 。 其 中 ， 大 规模 图 数据 库 Gstore 支持 100 亿 条 三 元 


科学 应 用 


流水 线 (Piflow) 


(aleuSld) 寸 涟 性 间 请 玫 


天 文 图 像 识别 流水 线 | | 天 文 事件 流水 线 | | 微 生 数据 流水 线 ] | 关联 发 现 流水 线 


融合 查询 (Simba) 


天 文 星 表 。 】 |。 事例 数据 | 到 感 涩 据 。 】 [ 知识 图 谱 。 】 | 时 序数 据 


> 浪 满 六 性 谤 


弹性 部 署 (EMR) 


Spark | | HDFS | | Astro Server | Eventdb | | Gstore 


图 3 BigSDMS 总 体 架构 
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组 图 数据 管理 和 秒 级 查询 响应 时 间 。 大 规模 半 结 构 化 数 
据 库 Eventdb 支持 万 亿 级 高 能 物理 实验 事例 、EB 量 级 数 
据 管理 能 力 。 大 规模 关系 型 数据 库 AstroSever 支持 千 亿 行 
天 文 星 表 数 据 的 管理 ， 大 、 中 、 小 规模 数据 典型 操作 的 
查询 优化 及 满足 数据 处 理 精度 与 实时 性 的 要 求 。 这 3 类 
数据 库 基 本 满足 了 目前 常见 科学 实验 中 大 规模 数据 的 存 
储 、 访 问 等 管理 需求 。 
3.2 科学 大 数据 系统 集成 

BigSDMS 集成 包含 弹性 部 署 (EMR ) 、 流 水 线 
融合 查询 ( Simba ) 和 数据 共享 ( Pishare ) 
4 个 部 分 。 其 中 ，EMR 的 弹性 伸缩 方案 综合 使 用 渐进 
式 伸缩 和 定量 式 伸缩 的 优点 : 当 负 载 模型 可 信 度 低 于 
阔 值 时 ， 采 用 渐进 式 方 法 进行 伸缩 ， 并 根据 扩容 后 的 
资源 竞争 修正 负载 模型 ; 若 负载 模型 可 信 度 达到 阔 值 
后 则 采用 定量 式 伸缩 方法 。Piflow 基于 Petri 网 ， 处 理 
单元 (processor ) 在 未 知 状态 (unknown ) 、 活 跃 状 态 
(active ) 、 休 有 卢 状态 ( hibernated ) 3 种 状态 之 间 进 行 
转换 ， 完 成 流程 的 执行 与 监控 。Simba 基于 Sparksql， 
在 Zeppelin 可 视 化 界面 中 通过 SQL 查询 进行 多 种 数 
据 源 的 融合 查询 分 析 。Pishare 基于 开源 区 块 链 项 
目 Hyperledger， 在 区 块 链 上 Pishare 会 对 数据 进行 加 密 存 
储 和 产权 认证 ， 并 通过 积分 机 制 (科学 币 ) 对 数据 提供 
者 进行 奖励 以 及 数据 市 场 的 交易 。 
3.3 科学 大 数据 应 用 示范 

目前 ， 基 于 BigSDMS ， 我 们 在 天 文学 、 高 能 物理 、 
微生物 学 领域 构建 了 3 个 应 用 示范 : 中 天 文学 领域 使 用 
了 100 亿 行星 表 数 据 ， 定 义 了 5 个 光 变 曲 线 处 理 流程 ， 实 
现 680 万 行星 表 数 据 插入 时 间 少 于 3s， “异常 发 现 ” 时 
间 小 于 1s (图 4a) ; @@ 高 能 物理 领域 使 用 了 BESIII 产 
生 的 942.9 亿 条 事例 数据 ， 相 对 于 业界 常用 的 Boss 查 
询 平 均 查 询 效率 提高 10 售 以 上 (图 40) ; @ 微生物 学 
领域 整合 了 200 种 微生物 种 菌 信息 ,构建 了 5 亿 条 规模 
的 RDF 知识 图 谱 数据 (图 4c ) 。 
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图 4 科学 大 数据 管理 系统 应 用 示范 


(a) 天 文 领域 应 用 示范 ; 


总 结 告 与 展望 
随 着 人 类 对 客观 世界 的 深入 认 知 ， 越 来 越 多 的 社会 


和 自然 现象 能 够 通过 观测 设备 进行 量化 ， 这 将 导致 科学 
数据 的 体 量 和 类 型 持续 增加 。 在 数据 驱动 的 科学 发 现 模 
式 下 ， 应 对 科学 大 数据 管理 的 SPUS 挑战 已 成 为 眼下 刻 
不 容 绥 的 任务 。 由 中 国 科学 院 计算 机 网 络 信息 中 心 牵头 
的 国家 重点 研发 计划 “科学 大 数据 管理 系统 ”项 目 对 这 
些 问题 进行 了 深入 探索 ， 研 发 了 一 套 科 学 大 数据 管理 系 
统 BigSDMS 。 未 来 我 们 还 会 在 弹性 部 署 、 流 水 线 、 数 据 
融合 和 数据 发 布 共享 4 个 方面 进行 更 深入 的 探索 ， 如 竞 
争 度 的 量化 与 预测 、 流 水 线 中 间 数 据 模型 设计 、 多 查询 
引擎 的 Polystore 方式 集成 、 数 据 共享 机 制 优化 等 。 随 着 
科学 大 数据 管理 技术 和 系统 研究 不 断 深 入 ， 科 学 大 数据 
对 科学 发 现 的 贡献 将 会 越 来 越 大 ! 
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Abstract As modern scientific discoveries heavily depend on the big data management, it is an urgent task to research how to manage 
scientific big data efficiently. In this paper, we first introduce the application scenes and requirement of scientific big data. Then we summarize 
four challenges in the management of scientific big data (SPUS): Scale dynamic, Pipeline management, Unified access, and Sharing 
management. After that, we present the proposed scientific big data management system which consists of four components: computing & 
storage management, data processing management, data fusion management, and data sharing management. Moreover, we specify the key 
techniques in the proposed system. At last, we introduce the ongoing Big Scientific Data Management System (BigSDMS) program, which is a 
national key research and development program. 
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略 研究 ” (2016 一 2017 年 ) ， 组 织 编撰 《中 国 科研 信息 化 蓝皮书 》《 中 国 科学 院 信 息 化 发 展 
报告 》 《中 国 科学 院 信 息 化 评估 报告 》 等 系列 报告 。 发 表 学 术 文 章 40 余 篇 ， 出 版 译 著 1 本 。 
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